Cross Validation (K-Fold, Stratified K-Fold)

Machine Learning - মেশিন লার্নিং (Machine Learning) - Model Evaluation এবং Validation Techniques
314

Cross-validation হলো একটি শক্তিশালী কৌশল যা মডেল প্রশিক্ষণের সময় ডেটার একাধিক সেট ব্যবহার করে মডেলের পারফরম্যান্স মূল্যায়ন করার জন্য। এটি ওভারফিটিং (overfitting) রোধে এবং মডেলের সাধারণীকরণের ক্ষমতা (generalization) বৃদ্ধি করতে সহায়ক। K-Fold Cross Validation এবং Stratified K-Fold Cross Validation হল দুটি জনপ্রিয় এবং কার্যকরী ক্রস ভ্যালিডেশন পদ্ধতি।


১. K-Fold Cross Validation:

K-Fold Cross Validation হল একটি পদ্ধতি যা ডেটাসেটকে Kটি সমান অংশে (folds) ভাগ করে এবং প্রতিটি অংশ একটি করে পরীক্ষা ডেটাসেট হিসেবে ব্যবহৃত হয়। প্রতিটি ফোল্ডের জন্য, মডেলটি প্রশিক্ষণ এবং মূল্যায়ন করা হয় এবং শেষে মধ্যম বা গড় সঠিকতা বা স্কোর গণনা করা হয়। এটি মডেলের পারফরম্যান্সের একটি নির্ভরযোগ্য এবং স্থিতিশীল পরিমাপ প্রদান করে।

K-Fold Cross Validation এর কাজের প্রক্রিয়া:

  1. ডেটাসেটটি Kটি সমান অংশে (folds) ভাগ করা হয়।
  2. প্রথমে প্রথম fold টেস্ট ডেটা হিসেবে এবং বাকি K-1 folds প্রশিক্ষণ ডেটা হিসেবে ব্যবহৃত হয়।
  3. প্রশিক্ষিত মডেলটি টেস্ট ফোল্ডের ওপর পরীক্ষা করা হয়।
  4. প্রক্রিয়াটি সমস্ত ফোল্ডের জন্য পুনরাবৃত্তি করা হয়।
  5. সমস্ত ফোল্ডের পরীক্ষার ফলাফল গড় করা হয় এবং এটি মডেলের কার্যকারিতা হিসেবে ধরা হয়।

K-Fold এর সুবিধা:

  • ডেটার প্রতিটি অংশই একবার টেস্ট সেট হিসেবে ব্যবহৃত হয়, যার ফলে মডেলের পারফরম্যান্স সম্পর্কে একটি স্থিতিশীল ধারণা পাওয়া যায়।
  • এটি ডেটার পূর্ণ ব্যবহার নিশ্চিত করে, যা প্রশিক্ষণ এবং পরীক্ষণের জন্য সাহায্যকারী।

কোড উদাহরণ:

from sklearn.model_selection import KFold
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score

# ডেটা লোড করা
data = load_iris()
X = data.data
y = data.target

# KFold সেটিংস (K=5)
kf = KFold(n_splits=5, shuffle=True, random_state=42)

# মডেল তৈরি
model = RandomForestClassifier()

# ক্রস ভ্যালিডেশন করা
scores = cross_val_score(model, X, y, cv=kf)

print(f"Cross-validation scores: {scores}")
print(f"Mean accuracy: {scores.mean()}")

২. Stratified K-Fold Cross Validation:

Stratified K-Fold হল K-Fold Cross Validation এর একটি উন্নত সংস্করণ, যা বিশেষ করে ক্লাস ইমব্যালেন্স (class imbalance) সমস্যাগুলির জন্য উপযোগী। যেখানে বিভিন্ন শ্রেণী (class) বা লেবেল (label) সঠিকভাবে প্রতিনিধিত্বিত না থাকে, সেখানে Stratified K-Fold ব্যবহার করা হয়। এটি নিশ্চিত করে যে প্রতিটি ফোল্ডে শ্রেণীগুলির অনুপাত মোট ডেটাসেটের মতোই থাকবে।

এটি মূলত ক্লাসিফিকেশন সমস্যা সমাধানে ব্যবহৃত হয়, যেখানে শ্রেণীভিত্তিক ডেটার সঠিক রিপ্রেজেন্টেশন খুব গুরুত্বপূর্ণ।

Stratified K-Fold এর সুবিধা:

  • শ্রেণীগুলির বৈচিত্র্য বজায় থাকে, যাতে মডেলটি ক্লাস ইমব্যালেন্স সমস্যায় উপযুক্তভাবে কাজ করতে পারে।
  • প্রতিটি ফোল্ডে ক্লাসের অনুপাত সঠিকভাবে থাকে, ফলে মডেলের পারফরম্যান্সের একটি সঠিক মূল্যায়ন পাওয়া যায়।

কোড উদাহরণ:

from sklearn.model_selection import StratifiedKFold
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score

# ডেটা লোড করা
data = load_iris()
X = data.data
y = data.target

# StratifiedKFold সেটিংস (K=5)
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# মডেল তৈরি
model = RandomForestClassifier()

# ক্রস ভ্যালিডেশন করা
scores = cross_val_score(model, X, y, cv=skf)

print(f"Cross-validation scores: {scores}")
print(f"Mean accuracy: {scores.mean()}")

K-Fold এবং Stratified K-Fold এর মধ্যে প্রধান পার্থক্য:

বৈশিষ্ট্যK-Fold Cross ValidationStratified K-Fold Cross Validation
বৈশিষ্ট্যডেটা কেবলমাত্র অংশে ভাগ করা হয়শ্রেণীর (class) অনুপাত সমানভাবে ভাগ করা হয়
ব্যবহারসাধারণত রিগ্রেশন সমস্যাক্লাসিফিকেশন সমস্যা (বিশেষত ক্লাস ইমব্যালেন্স সমস্যা)
ক্লাস ইমব্যালেন্সসমস্যাটি পরিচালনা করতে পারে নাশ্রেণীগুলির অনুপাত সঠিকভাবে ভাগ করে
ফলাফলক্লাসের অনুপাতের কোন নিশ্চয়তা নেইক্লাসের অনুপাতের সঠিক রিপ্রেজেন্টেশন থাকে

উপসংহার:

  • K-Fold Cross Validation একটি সাধারণ এবং জনপ্রিয় টেকনিক যা মডেলের কার্যকারিতা যাচাই করতে ব্যবহৃত হয়, কিন্তু কিছু ক্ষেত্রে Stratified K-Fold বিশেষভাবে ক্লাস ইমব্যালেন্স ডেটার জন্য বেশি উপকারী।
  • Stratified K-Fold ব্যবহার করলে মডেলের ট্রেনিং এবং টেস্টিং এর মধ্যে শ্রেণীগুলির সঠিক অনুপাত থাকে, যা ক্লাসিফিকেশন মডেলের সঠিক মূল্যায়ন নিশ্চিত করে।
Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...